3 research outputs found

    Gender and Genre Linguistic profiling: a case study on female and male journalistic and diary prose

    Get PDF
    This paper intends to investigate the linguistic profile of male- and female-authored texts belonging to two very different textual genres: newspaper articles and diary prose. By using a wide set of linguistic features automatically extracted from text and spanning across different levels of linguistic description, from lexicon to syntax, our analysis highlights the peculiarities of the two examined genres and how the genre dimension is influenced by variation depending on author’s gender (and vice versa).Questo lavoro nasce con lo scopo di definire il profilo linguistico di testi scritti da uomini e da donne appartenenti a due generi testuali molto diversi: la prosa giornalistica e le pagine di diario. Attraverso lo studio di una ampia gamma di caratteristiche linguistiche estratte automaticamente dai testi e riguardanti diversi livelli di descrizione linguistica, che vanno dall’analisi lessicale del testo a quella sintattica, questo lavoro mette in luce le peculiarità dei due generi testuali presi in esame e come la dimensione del dominio dei testi venga influenzata dalla dimensione del genere uomo/donna (e viceversa)

    Proceedings of the Fifth Italian Conference on Computational Linguistics CLiC-it 2018

    Get PDF
    On behalf of the Program Committee, a very warm welcome to the Fifth Italian Conference on Computational Linguistics (CLiC-­‐it 2018). This edition of the conference is held in Torino. The conference is locally organised by the University of Torino and hosted into its prestigious main lecture hall “Cavallerizza Reale”. The CLiC-­‐it conference series is an initiative of the Italian Association for Computational Linguistics (AILC) which, after five years of activity, has clearly established itself as the premier national forum for research and development in the fields of Computational Linguistics and Natural Language Processing, where leading researchers and practitioners from academia and industry meet to share their research results, experiences, and challenges

    È la frase successiva? Indagine delle competenze di un neural language model sull'identificazione della coerenza

    No full text
    La coerenza è un indicatore molto importante della qualità di un testo, perché restituisce una fotografia di come questo è costruito, della bontà dell’organizzazione delle frasi e del loro significato, con un conseguente aumento della leggibilità e comprensibilità del messaggio in esso contenuto. Con il nostro studio abbiamo voluto analizzare la capacità di Bert di individuare la coerenza fra due frasi, ovvero la sua abilità nel capire se due proposizioni possono essere consecutive o meno. Al fine di comprendere le capacità del neural language model di risolvere il task suddetto in assenza di fine-tuning, abbiamo utilizzato un approccio non supervisionato e uno supervisionato. Per quanto concerne il primo scenario, abbiamo calcolato la distanza cosenica fra le rappresentazioni delle frasi estratte da Bert; in merito al secondo metodo, abbiamo eseguito dei probing tasks, utilizzando gli embeddings ottenuti dal neural language model come features di un modello SVM. Infine, abbiamo eseguito il fine-tuning del nostro modello Bert per quantificare l'effettiva capacità del modello di riconoscere la coerenza fra due frasi. Abbiamo effettuato i medesimi esperimenti sulla baseline sia per i probing tasks, sia per il fine-tuning. Per la nostra indagine abbiamo utilizzato frasi estratte dai TEDx Talks e dalle sessioni plenarie del Senato italiano (ParlaMint), e abbiamo realizzato dei dataset di complessità crescente, con frasi a distanza 5, 10, 20, 30 (per ParlaMint è stato realizzato anche un dataset con frasi appartenenti a interventi diversi). In questo modo abbiamo potuto analizzare le competenze del neural language model in merito all'individuazione della coerenza con e senza fine-tuning, e abbiamo potuto studiare eventuali differenze derivanti dalla diversa complessità del dataset e/o dal genere testuale considerato
    corecore